| Tableau de données | |||
| code | nom | X1 | X2 |
|---|---|---|---|
| 44 | ACAL | 38.3 | 5.5 |
| 75 | AQUI | 30.9 | 5.0 |
| 84 | AURA | 30.9 | 5.6 |
| 27 | BOFC | 37.1 | 5.3 |
| 53 | BRET | 25.6 | 4.2 |
| 24 | CVDL | 34.9 | 5.4 |
| 11 | IDF | 18.8 | 5.7 |
| 76 | OCCI | 33.7 | 5.5 |
| 32 | NOPI | 42.4 | 4.6 |
| 28 | NORM | 35.3 | 4.6 |
| 52 | PDL | 27.6 | 4.7 |
| 93 | PACA | 38.6 | 7.7 |
Cours Géoprisme 2024
2024-05-13
On commence par charger un jeu de données comportant plusieurs variables qui vont servir à construire une ou plusieurs matrices de dissimilarités. Dans l’exemple qui va suivre, on a choisit de prendre les deux principales listes d’extrêmes droite :
| Tableau de données | |||
| code | nom | X1 | X2 |
|---|---|---|---|
| 44 | ACAL | 38.3 | 5.5 |
| 75 | AQUI | 30.9 | 5.0 |
| 84 | AURA | 30.9 | 5.6 |
| 27 | BOFC | 37.1 | 5.3 |
| 53 | BRET | 25.6 | 4.2 |
| 24 | CVDL | 34.9 | 5.4 |
| 11 | IDF | 18.8 | 5.7 |
| 76 | OCCI | 33.7 | 5.5 |
| 32 | NOPI | 42.4 | 4.6 |
| 28 | NORM | 35.3 | 4.6 |
| 52 | PDL | 27.6 | 4.7 |
| 93 | PACA | 38.6 | 7.7 |
Dans cette première partie on va essayer de regrouper les unités spatiales en trois classes sans s’occuper de leur position spatiale.
On remarque immédiatement que les deux variables ont des moyennes et des variances différentes :
| Paramètres principaux (non standardisés) | |
| X1 | X2 |
|---|---|
| 32.9 | 5.3 |
| 18.8 | 4.2 |
| 42.4 | 7.7 |
| 6.5 | 0.9 |
| 42.7 | 0.8 |
| 98.2 | 1.8 |
La variance des scores de la variable X1 (Bardella) est beaucoup plus forte que celle de la variable X2 (Marechal), ce qui signifie que si l’on s’en tient aux variables brutes, les différences entre régions seront liées essentiellement aux variations de la liste X1 :
Les distances euclidiennes entre les points sont donc dépendantes pour l’essentielle des résultat du score de Bardella (X1) et très peu de celui de Marion Maréchal (X2). C’est ce que montre bien la distance de dissimilarité associée :
| Dissimilarité en distance euclidienne non standardisée | ||||||||||||
| ACAL | AQUI | AURA | BOFC | BRET | CVDL | IDF | OCCI | NOPI | NORM | PDL | PACA | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| ACAL | 0.0 | 7.4 | 7.4 | 1.3 | 12.8 | 3.4 | 19.5 | 4.6 | 4.2 | 3.1 | 10.7 | 2.2 |
| AQUI | 7.4 | 0.0 | 0.6 | 6.2 | 5.4 | 4.0 | 12.2 | 2.8 | 11.5 | 4.4 | 3.3 | 8.2 |
| AURA | 7.4 | 0.6 | 0.0 | 6.2 | 5.5 | 4.0 | 12.1 | 2.8 | 11.5 | 4.5 | 3.4 | 8.0 |
| BOFC | 1.3 | 6.2 | 6.2 | 0.0 | 11.6 | 2.2 | 18.3 | 3.4 | 5.4 | 1.9 | 9.5 | 2.9 |
| BRET | 12.8 | 5.4 | 5.5 | 11.6 | 0.0 | 9.4 | 6.9 | 8.2 | 16.8 | 9.8 | 2.1 | 13.5 |
| CVDL | 3.4 | 4.0 | 4.0 | 2.2 | 9.4 | 0.0 | 16.2 | 1.3 | 7.5 | 0.9 | 7.3 | 4.4 |
| IDF | 19.5 | 12.2 | 12.1 | 18.3 | 6.9 | 16.2 | 0.0 | 14.9 | 23.6 | 16.6 | 8.9 | 20.0 |
| OCCI | 4.6 | 2.8 | 2.8 | 3.4 | 8.2 | 1.3 | 14.9 | 0.0 | 8.8 | 1.9 | 6.1 | 5.4 |
| NOPI | 4.2 | 11.5 | 11.5 | 5.4 | 16.8 | 7.5 | 23.6 | 8.8 | 0.0 | 7.1 | 14.8 | 4.9 |
| NORM | 3.1 | 4.4 | 4.5 | 1.9 | 9.8 | 0.9 | 16.6 | 1.9 | 7.1 | 0.0 | 7.7 | 4.5 |
| PDL | 10.7 | 3.3 | 3.4 | 9.5 | 2.1 | 7.3 | 8.9 | 6.1 | 14.8 | 7.7 | 0.0 | 11.4 |
| PACA | 2.2 | 8.2 | 8.0 | 2.9 | 13.5 | 4.4 | 20.0 | 5.4 | 4.9 | 4.5 | 11.4 | 0.0 |
Une classification ascendante hiérarchique utilisant la méthode de Ward aboutira alors à un résultat qui est à peu près identique à celui qu’on aurait obtenu en découpant uniquement selon la variable Bardella X1.
Supposons maintenant que nous reprenions la même analyse mais en utilisant des variables standardisées dont on ramène la moyenne à 0 et l’écart-type à 1
Désormais les deux variables ont une même moyenne et une même variances. Elles vont donc jouer un rôle équivalent dans la classification.
| Paramètres principaux (standardisés) | ||
| X1_std | X2_std | |
|---|---|---|
| moy | 0.0 | 0.0 |
| min | −2.2 | −1.2 |
| max | 1.5 | 2.7 |
| std | 1.0 | 1.0 |
| var | 1.0 | 1.0 |
| varpct | 50.0 | 50.0 |
Désormais ce n’est plus la région Ile-de-France qui fait figure de région exceptionnelle mais plutôt la région PACA en raison du score exceptionnellement élevé de la liste Maréchal.
Les distances euclidiennes entre les points sont donc désormais aussi dépendante du score de Bardella que celui de Maréchal en raison de la standardisation. Les très fortes dissimilarités concernent donc autant l’Ile-de-France (score exceptionnellement bas de Bardella) que la région PACA (score exceptionnellement haut de Maréchal)
| Dissimilarité en distance euclidienne standardisée | ||||||||||||
| ACAL | AQUI | AURA | BOFC | BRET | CVDL | IDF | OCCI | NOPI | NORM | PDL | PACA | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| ACAL | 0.0 | 1.3 | 1.1 | 0.3 | 2.4 | 0.5 | 3.0 | 0.7 | 1.2 | 1.1 | 1.9 | 2.5 |
| AQUI | 1.3 | 0.0 | 0.7 | 1.0 | 1.2 | 0.8 | 2.0 | 0.7 | 1.8 | 0.8 | 0.6 | 3.3 |
| AURA | 1.1 | 0.7 | 0.0 | 1.0 | 1.7 | 0.6 | 1.9 | 0.4 | 2.1 | 1.3 | 1.1 | 2.7 |
| BOFC | 0.3 | 1.0 | 1.0 | 0.0 | 2.1 | 0.4 | 2.8 | 0.6 | 1.1 | 0.8 | 1.6 | 2.7 |
| BRET | 2.4 | 1.2 | 1.7 | 2.1 | 0.0 | 2.0 | 1.9 | 1.9 | 2.6 | 1.6 | 0.6 | 4.4 |
| CVDL | 0.5 | 0.8 | 0.6 | 0.4 | 2.0 | 0.0 | 2.5 | 0.2 | 1.5 | 0.9 | 1.4 | 2.6 |
| IDF | 3.0 | 2.0 | 1.9 | 2.8 | 1.9 | 2.5 | 0.0 | 2.3 | 3.8 | 2.8 | 1.7 | 3.8 |
| OCCI | 0.7 | 0.7 | 0.4 | 0.6 | 1.9 | 0.2 | 2.3 | 0.0 | 1.7 | 1.0 | 1.3 | 2.6 |
| NOPI | 1.2 | 1.8 | 2.1 | 1.1 | 2.6 | 1.5 | 3.8 | 1.7 | 0.0 | 1.1 | 2.3 | 3.6 |
| NORM | 1.1 | 0.8 | 1.3 | 0.8 | 1.6 | 0.9 | 2.8 | 1.0 | 1.1 | 0.0 | 1.2 | 3.5 |
| PDL | 1.9 | 0.6 | 1.1 | 1.6 | 0.6 | 1.4 | 1.7 | 1.3 | 2.3 | 1.2 | 0.0 | 3.8 |
| PACA | 2.5 | 3.3 | 2.7 | 2.7 | 4.4 | 2.6 | 3.8 | 2.6 | 3.6 | 3.5 | 3.8 | 0.0 |
La classification ascendante hiérarchique va désormais donner un résultat différent en isolant à la fois la région PACA (fort vote Bardella et Maréchal) et la région Ile de France (faible vote Bardella mais fort vote Maréchal)
Nous allons maintenant procéder à une régionalisation en nous limitant à une méthode très simple (skater) qui est basée sur la théorie des graphes et plus précisément sur le concept d’arbre couvrant minimal (minimum spanning tree).
Le graphe de voisinage (\(G^{vois}\)) est une réduction du graphe complet (\(G^{tot}\)) utilisé lors de la classification pour regrouper les unités spatiales.
On procède à une pondération du graphe de voisinage par la dissimilarité qui sépare deux entités voisines. On peut considérer ceci comme un coût de mise en relation de deux unités différentes. On voit que le coût le plus fort est entre NOPI et IDF, le coût le plus faible entre ACAL et BOFC.
En théorie des graphes, étant donné un graphe non orienté connexe dont les arêtes sont pondérées, un arbre couvrant minimum (ACM),de ce graphe est un arbre couvrant (sous-ensemble qui est un arbre et qui connecte tous les sommets ensemble) dont la somme des poids des arêtes est minimale (c’est-à-dire de poids inférieur ou égal à celui de tous les autres arbres couvrants du graphe).
L’arbre couvrant minimum peut s’interpréter de différentes manières selon ce que représente le graphe. De manière générale si on considère un réseau où un ensemble d’objets doivent être reliés entre eux (par exemple un réseau électrique et des habitations), l’arbre couvrant minimum est la façon de construire un tel réseau en minimisant un coût représenté par le poids des arêtes (par exemple la longueur totale de câble utilisée pour construire un réseau électrique).
Source Wikipedia France
Si on applique cette méthode à notre graphe, on obtient un arbre (en rouge) qui permet de relier toutes les unités spatiales en évitant les plus fortes dissimilarités entre voisins. A titre d’exemple, IDF est relié à CVDL qui est son voisin le moins différent.
La méthode SKATER (Spatial C(K)luster Analysis by Tree Edge Removal) consiste d’une manière générale à découper l’arbre couvrant minimum au niveau des arêtes les plus dissemblables. Les deux premières étapes vont logiquement isoler PACA (très fort vote Maréchal) puis IDF (très faible vote Bardella).
Les étapes suivantes voient se détacher les régions de l’Ouest (faible vote Bardella et Maréchal) puis les régions du Nord-Ouest (fort vote Bardella mais faible vote Maréchal)
Quelle est la qualité des différentes régionalisations obtenue ? Comme dans une analyse de variance on peut décomposer les différences en variation intra-régionale et inter-régionale. La qualité d’une régionalisation est donc la part des variations inter-régionales dans la variation totale.
Dans notre exemple on voit que la part de variation interne diminue rapidement lorsqu’on sépare les deux régions exceptionnelles PACA et IDF du reste de la France. La partition en 3 classes résumé donc déjà 63% des différences.
En passant à 4 puis 5 classes, on arrive à une partition qui résume 80 à 90% des différences de vote pour les listes d’extrême droite
| Variations intra et inter-régionales | |||
| nbreg | varint | varext | vartot |
|---|---|---|---|
| 1.0 | 100.0 | 0.0 | 100.0 |
| 2.0 | 60.4 | 39.6 | 100.0 |
| 3.0 | 36.8 | 63.2 | 100.0 |
| 4.0 | 18.2 | 81.8 | 100.0 |
| 5.0 | 9.9 | 90.1 | 100.0 |
Comme dans une classification, on peut termine le travail par un examen du profil des régions obtenues.
Géoprisme 2024